La poule qui chante, entreprise française d’agroalimentaire nous consulte pour déterminer un plan d’internationalisation de ses ventes.
Après avoir nettoyé, préparé, et sélectionné les données, nous allons maintenant pouvoir passer à l’étape d’analyse.
Ce premier aperçu nous indique rapidement que:
L’Objectif de l’ACP est de condenser l’information contenu dans notre tableau de variables.
A cette fin, nous analysons les corrélations linéaires entre les variables et nous faisons une représentation graphique des distances entre individus.
Cela nous permet de dégager des liaisons entre variables et des ressemblances entre individus.
ce graphique nous indique que 66.4% de l’information est résumée sur les deux premières dimensions.
On pourrait passer à 77.4% en prenant en considération la 3 ème dimension.
Nous constatons ici que la 3eme dimension est principalement expliquée par une variable déjà incluse dans notre première dimension.
Nous allons donc nous restreindre à l’étude des deux premières dimensions pour 66.4% de l’information.
Nous constatons que la première dimension est très fortement corrélée à la disponibilité totale de protéines, ainsi que (disponibilité alimentaire et pib).
La seconde dimension elle, semble plutôt indiquer l’origine des protéines entre import et auto_suffisance
Les variables d’interêt sur l’axe de composante primaire 1 sont la disonibilité de proteines totales, la disponibilité totale, le pib et le ratio de protéines d’origines animales.
La variation de population est très proche du seuil sans réussir à l’atteindre
Les variables d’intérêt sur le second axe de composantes primaires sont la part d’importation et l’auto suffisance
Cette visualisation nous montre le “poids” des différentes variables dans l’anayse.
Sans surprise, les disponibilités, et origines de protéines ont plus d’importance que la variation de population.
Ce graphique nous illustre le positionnement des pays “individus” les uns par rapport aux autres.
Il est plus aisé de comprendre que les pays qui auront le plus d’intérêt pour nous seront situés sur la droite du graphique (pays riches dits développés), et plutôt sur le haut du graphique (pays importateurs de denrées)
deux continents se détachent un peu du lot:
Cependant les fortes disparités d’auto suffisance et d’importation, ainsi que pour le niveau de richesse / développement des pays au sein d’un même continent nous empêchent de choisir un continent comme groupe de pays cibles.
Nous utiliserons les résultats de l’ACP pour regrouper des pays en fin de document après avoir mis en pratique une autre méthode de “classification”.
On utilise ici un des algorithmes de clustering les plus répandus.
Il permet d’analyser un jeu de données afin de regrouper les individus similaires en groupes (ou clusters)
La première chose à faire est de calculer le bon nombre de groupes pour trier nos individus. Il existe de nombreuses méthodes pour déterminer ce nombre de groupes idéal.
La méthode Silhouette de détermination du nombre idéal de cluster nous propose deux groupes.
Pour notre usage, deux groupes seront certainement insuffisants, nous risquerions de nous retrouver avec une classification “pays riche” / “pays pauvre”.
La méthode du coude elle, nous recommande 4 groupes ce qui devrait nous permettre de mieux trier les pays.
Nous allons vérifier la représentativité de notre méthode en fonction du nombre de clusters
Résultats de représentativité en %:
représentativité = ((somme des carrés internes) /(somme des carrés total)) X 100 (higher the better)
Nous allons donc continuer notre étude en considérant 4 groupes ou “clusters”
Voici une représentation globale des moyennes de chaque variable pour chaque groupe de pays.
ce graphique nous permet d’interpréter les différences entre les groupes afin de choisir vers quel groupe de pays nous tourner.
A la lecture de ce graphe, il semblerait que nos groupes correspondent:
Nous allons regarder chaque variable de plus près.
Les clusters les plus importateurs sont le 1 et le 4
Les clusters avec l’industrie la plus développée sont les 3 et 4
Le cluster le plus riche et de très loin est le cluster 4
La variation de population positive ou négative indique une instabilité (guerre, période de développement du pays etc…)
Nous devons privilégier les pays avec une faible variation de population comme 1 et 4
Les pays ou l’alimentation est la plus disponible sont dans les groupes 3 et 4
Les pays les plus consommateurs de protéines sont les groupes 3 et 4
Les pays dont la part animale est la plus élevée dans le total de proteines sont dans les groupes 1 et 4
D’un point de vue exportation, il parait pertinent de se concentrer en priorité vers les pays:
Les clusters : - 1 et 2 contiennent des pays pauvres, consommant peu de proteines animales et ne sont pas un bon choix pour l’importation de volaille. - 3 contient des pays un peu plus riches, consommant plus habituellement des proteines animales, mais très autonomes dans leur production. - 4 contient les pays les plus riches dont la production ne suffit pas toujours à combler les besoins, ils sont la meilleure cible pour l’importation de volaille.
C’est une méthode d’analyse qui cherche à construire une hiérarchie de groupes (ou clusters) sous la forme d’une structure arborescente.
cette classification des pays issu de l’ACP nous propose un découpage des pays en 4 clusters.
Tenant compte du fait que nous voulons les pays les plus “en haut à droite” de l’ACP, le cluster 4 en violet semble le plus pertinent.
CLassification entre clusters.
Classification des individus dans chaque cluster
Visualisation des clusters issus du Kmean nous montre une disposition des pays très similaires aux résultats de l’ACP
Cette projection des clusters sur la mappemonde nous permet de mieux visualiser les pays de chaque cluster.
| Zone | variation_pop | pib_hab | Disponibilite_totale | Dispo_proteines_total | ratio_animal_prot | part_Import | auto_suff | alpha.3 | Continent | Cluster |
|---|---|---|---|---|---|---|---|---|---|---|
| Antigua-et-Barbuda | 5.5492263 | 15383.415 | 2429 | 81.15 | 0.45 | 1.0000000 | 0.0000000 | ATG | Amerique du Nord | 1 |
| Arménie | 2.0995869 | 3914.525 | 3072 | 97.33 | 0.25 | 0.7608696 | 0.2391304 | ARM | Asie | 1 |
| Bahamas | 4.9977447 | 32719.152 | 2043 | 61.37 | 0.51 | 0.8000000 | 0.2000000 | BHS | Amerique du Nord | 1 |
| Cap-vert | 6.3857413 | 3292.638 | 2512 | 69.33 | 0.21 | 0.9230769 | 0.0769231 | CPV | Afrique | 1 |
| Cuba | 0.7297614 | 8541.214 | 3409 | 88.40 | 0.28 | 0.9149560 | 0.0850440 | CUB | Amerique du Nord | 1 |
| Djibouti | 8.7500014 | 2930.697 | 2677 | 66.43 | 0.11 | 1.0000000 | 0.0000000 | DJI | Afrique | 1 |
| Zone | variation_pop | pib_hab | Disponibilite_totale | Dispo_proteines_total | ratio_animal_prot | part_Import | auto_suff | alpha.3 | Continent | Cluster |
|---|---|---|---|---|---|---|---|---|---|---|
| Afghanistan | 16.477889 | 513.086 | 1997 | 54.09 | 0.08 | 0.5087719 | 0.4912281 | AFG | Asie | 2 |
| Angola | 18.754373 | 4095.812 | 2266 | 54.09 | 0.18 | 0.8683386 | 0.1316614 | AGO | Afrique | 2 |
| Bangladesh | 5.747917 | 1538.234 | 2596 | 60.22 | 0.16 | 0.0000000 | 1.0000000 | BGD | Asie | 2 |
| Belize | 11.174260 | 4887.560 | 2694 | 67.11 | 0.26 | 0.0000000 | 1.0000000 | BLZ | Amerique du Nord | 2 |
| Bénin | 14.861877 | 1136.593 | 2754 | 64.45 | 0.19 | 0.8723404 | 0.1276596 | BEN | Afrique | 2 |
| Botswana | 8.115688 | 7893.388 | 2338 | 65.09 | 0.20 | 0.3750000 | 0.6250000 | BWA | Afrique | 2 |
| Zone | variation_pop | pib_hab | Disponibilite_totale | Dispo_proteines_total | ratio_animal_prot | part_Import | auto_suff | alpha.3 | Continent | Cluster |
|---|---|---|---|---|---|---|---|---|---|---|
| Afrique du Sud | 7.906280 | 6121.877 | 2987 | 83.36 | 0.34 | 0.2426818 | 0.7870633 | ZAF | Afrique | 3 |
| Albanie | -1.026974 | 4514.205 | 3400 | 119.50 | 0.22 | 0.7450980 | 0.2549020 | ALB | Europe | 3 |
| Algérie | 10.713956 | 4109.701 | 3345 | 92.85 | 0.10 | 0.0072202 | 0.9927798 | DZA | Afrique | 3 |
| Arabie Saoudite | 13.535560 | 20802.465 | 3194 | 87.51 | 0.27 | 0.5436747 | 0.4638554 | SAU | Asie | 3 |
| Argentine | 5.225563 | 14627.616 | 3239 | 102.66 | 0.51 | 0.0040775 | 1.1014271 | ARG | Amerique du sud | 3 |
| Azerbaïdjan | 6.267105 | 4150.869 | 3102 | 92.30 | 0.18 | 0.2061069 | 0.7938931 | AZE | Asie | 3 |
| Zone | variation_pop | pib_hab | Disponibilite_totale | Dispo_proteines_total | ratio_animal_prot | part_Import | auto_suff | alpha.3 | Continent | Cluster |
|---|---|---|---|---|---|---|---|---|---|---|
| Allemagne | 2.081915 | 44552.06 | 3559 | 104.07 | 0.33 | 0.4923977 | 0.8853801 | DEU | Europe | 4 |
| Australie | 7.337914 | 57628.86 | 3307 | 108.01 | 0.47 | 0.0128721 | 1.0209171 | AUS | Océanie | 4 |
| Autriche | 3.736362 | 47306.41 | 3694 | 108.11 | 0.34 | 0.6111111 | 0.8222222 | AUT | Europe | 4 |
| Belgique | 3.016502 | 44020.07 | 3770 | 101.35 | 0.29 | 2.3310345 | 3.1931034 | BEL | Europe | 4 |
| Canada | 5.183161 | 44906.75 | 3492 | 101.33 | 0.34 | 0.1267409 | 0.9867688 | CAN | Amerique du Nord | 4 |
| Danemark | 2.163128 | 57938.80 | 3383 | 112.92 | 0.34 | 0.7964072 | 1.0359281 | DNK | Europe | 4 |
Une grande part des pays de ce groupe étant Européens, Il est certainement pertinent de les privilégier afin de profiter d’accord politiques et commerciaux bien établis.
| Zone | variation_pop | pib_hab | Disponibilite_totale | Dispo_proteines_total | ratio_animal_prot | part_Import | auto_suff | alpha.3 | Continent | Cluster |
|---|---|---|---|---|---|---|---|---|---|---|
| Luxembourg | 11.500837 | 108431.93 | 3334 | 105.79 | 0.38 | 1.1000000 | 0.0000000 | LUX | Europe | 4 |
| Suisse | 5.591800 | 83313.01 | 3414 | 95.46 | 0.31 | 0.3695652 | 0.6594203 | CHE | Europe | 4 |
| Norvège | 5.636885 | 75220.81 | 3384 | 109.98 | 0.30 | 0.0194175 | 0.9805825 | NOR | Europe | 4 |
| Islande | 2.684154 | 73231.73 | 3629 | 141.34 | 0.32 | 0.1666667 | 0.8333333 | ISL | Europe | 4 |
| Irlande | 3.148324 | 71391.01 | 3714 | 105.81 | 0.32 | 0.8534483 | 0.9482759 | IRL | Europe | 4 |
| Danemark | 2.163128 | 57938.80 | 3383 | 112.92 | 0.34 | 0.7964072 | 1.0359281 | DNK | Europe | 4 |
| Suède | 3.794311 | 54621.35 | 3214 | 107.03 | 0.35 | 0.3853211 | 0.7201835 | SWE | Europe | 4 |
| Pays-Bas | 1.366777 | 48989.64 | 3251 | 104.43 | 0.33 | 2.0965517 | 3.7931034 | NLD | Europe | 4 |
| Autriche | 3.736362 | 47306.41 | 3694 | 108.11 | 0.34 | 0.6111111 | 0.8222222 | AUT | Europe | 4 |
| Finlande | 1.784028 | 46310.12 | 3337 | 117.77 | 0.30 | 0.1203008 | 0.9699248 | FIN | Europe | 4 |
| Allemagne | 2.081915 | 44552.06 | 3559 | 104.07 | 0.33 | 0.4923977 | 0.8853801 | DEU | Europe | 4 |
| Belgique | 3.016502 | 44020.07 | 3770 | 101.35 | 0.29 | 2.3310345 | 3.1931034 | BEL | Europe | 4 |
| Royaume-Uni | 3.412845 | 39900.87 | 3428 | 103.87 | 0.35 | 0.3487019 | 0.8119964 | GBR | Europe | 4 |
| France | 2.011018 | 38720.65 | 3556 | 112.08 | 0.34 | 0.2883191 | 0.9971510 | FRA | Europe | 4 |
| Malte | 3.822583 | 29205.18 | 3460 | 116.32 | 0.34 | 0.6923077 | 0.3076923 | MLT | Europe | 4 |
En triant les pays par PIB/Habitant le trio Luxembourg, Suisse et Norvège s’impose.
| Zone | variation_pop | pib_hab | Disponibilite_totale | Dispo_proteines_total | ratio_animal_prot | part_Import | auto_suff | alpha.3 | Continent | Cluster |
|---|---|---|---|---|---|---|---|---|---|---|
| Macao | 10.379779 | 81516.66 | 2999 | 100.37 | 0.61 | 0.8846154 | 0.1153846 | MAC | Asie | 4 |
| États-Unis | 3.515710 | 60116.57 | 3762 | 113.61 | 0.43 | 0.0067048 | 1.1945489 | USA | Amerique du Nord | 4 |
| Australie | 7.337914 | 57628.86 | 3307 | 108.01 | 0.47 | 0.0128721 | 1.0209171 | AUS | Océanie | 4 |
| Hong-Kong | 3.682129 | 46705.03 | 3353 | 137.88 | 0.65 | 3.3843284 | 0.0895522 | HKG | Asie | 4 |
| Canada | 5.183161 | 44906.75 | 3492 | 101.33 | 0.34 | 0.1267409 | 0.9867688 | CAN | Amerique du Nord | 4 |
| Nouvelle-Zélande | 5.227241 | 43686.60 | 3153 | 90.80 | 0.43 | 0.0049751 | 1.1094527 | NZL | Océanie | 4 |
| Israël | 8.258700 | 42850.55 | 3507 | 122.62 | 0.40 | 0.0000000 | 1.0047923 | ISR | Asie | 4 |
| Émirats Arabes Unis | 3.780598 | 40644.80 | 3370 | 107.26 | 0.26 | 1.1188630 | 0.1240310 | ARE | Asie | 4 |
| Koweït | 21.119052 | 29754.61 | 3445 | 99.69 | 0.33 | 0.7248677 | 0.2962963 | KWT | Asie | 4 |